Day 30 - End Of 30 Days Series - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2018 iT 邦幫忙鐵人賽

DAY 30

Data Technology

Hadoop ecosystem 工具簡介, 安裝教學與各種情境使用系列第 30 篇

Day 30 - End Of 30 Days Series

2018鐵人賽

stana

團隊就是有亦思

2018-01-02 14:31:17

4095 瀏覽

分享至

30 天系列到了尾聲，最後來談談Hadoop Ecosystem的未來。
Hadoop剛發表的時候影響整個檔案系統的生態，以往在單一機器無法處理或是儲存有所限制的使用情境都因Hadoop得以解決。

但由於MapReduce的應用程式對於開發者而言較不友善，且以運算速度的角度來看，對於已經習慣毫秒等級內反應的使用者來說，MapReduce還是有很大的改善空間。所以當Spark發表後，在短時間內就受到高度注目，使用人數也急速攀升。

很多人的問題是，"Hadoop 會不會被 Spark所取代呢？"，這要看以哪個角度來看這件事情。Spark是個運用記憶體計算的運算框架(Framework)而MapReduce在運算過程中會不斷地將各Map的運算結果儲存在硬碟內，硬碟IO相較於使用記憶體會花費較多的時間，所以Spark在運算方面基本上是勝過MapReduce。Saprk唯一無法勝過Hadoop的大概就是儲存系統了吧！因為Saprk是個運算框架而不具備儲存功能。

Hadoop社群這幾年也朝向這方面努力，先後整合Kerberos與Sentry (CDH平台使用)/Range (HDP平台使用)，彌補了authentication與authorization權限的不足，除了讓使用者資料受到保護以外，也可以達成Multi-tenancy的功能。

倘若Hadoop未來可以讓HDFS的功能更加強大、安全與穩定，其周邊的Ecosystem也會更加欣欣向榮，尤其是首當其衝的HBase。

如果你是個熱血開發者，想讓整個Hadoop Ecosystem更加好用，又或者覺得"這ＸＸＸ功能怎麼這麼難用，如果是OOOO這樣做會更好啊"，社群們需要你的加入！！

可以到各個Mailing list:

或是Jira參與並討論各個project的開發與討論，讓社群了解使用者的心聲，或者直接參與開發討論是更好的！